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(57) Abstract 

The invention concerns a method for spatial segmentation 
of images into visual objects to obtain objects having semantic 
significance comprising steps which consists in dividing the 
image into initial regions, fusing the neighbouring initial regions 
according to certain similarity functions and obtaining enlarged 
images, then repeating said phase with the remaining initial 
regions and the enlarged regions until there is no possibility 
of further fusion. The invention also concerns the use of said 
method for characterising, classifying, storing, detecting objects 
scenes, planes, groups of planes, movements, in multimedia' 
documents, particularly of video. 

(57) Abrege* 

V invention porte sur un proce^ de segmentation spatiale 
d images en objets visuels pour obtenir des objets ayant une 
signification scmantique component des 6tapes de partition 
d images en regions initiates, de fusion de regions initiates 
voisines selon certaines fonctions de similarity et Tobtention de 
regions dlargies, puis une iteration de cette phase avec les regions 
initiates restantes et les regions eiargies jusqu'a ce qu'aucune 
fusion ne soit plus possible. L'invention porte element sur 
1 utilisation du proc6d£ a la caractensation, a la classification, au 
stockage, a la detection d'objets, de scenes, de plans, de groupes 
de plans, de mouvements, dans des documents multimedia en 
particuher de video. 
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PROCEDE DE SEGMENTATION SPATIALE D'UNE IMAGE EN OBJETS 
VISUELS ET APPLICATION 

L'invention concerne le domaine de I'analyse de I'information 
contenue dans les images couleur, provenant notamment de documents 
multimedias, et en particulier de videos. Cette analyse est destinee plus 
particulierement. mais non exclusivement, a permettre une indexation de la 
documentation audiovisuelle. 

Le probleme consiste en particulier a realiser un decoupage 
temporel de sequences videos en scenes qui constituent des unites 
narratives de ces sequences, en vue du stockage et de la visualisation 
selective de certaines scenes par les utilisateurs. Un tel niveau de 
comprehension n'est pas directement accessible par les methodes de 
segmentation connues. 

Des methodes ont ete developpees pour realiser la segmentation 
d'images de niveaux de gris ou pour la segmentation d'objets en 
mouvement dans les images d'une video. Mais parmi les algorithmes de 
segmentation d'images couleur. aucun ne foumit de resultats suffisants 
lorsque les images a analyser sont tirees de la "vie reelle". Les principals 
methodes peuvent etre regroupees en methodes de type pixels, de type 
contours, et de type regions. 

Dans les methodes de segmentation de type pixels, une region est 
definie comme une composante connexe d'un ensemble de pixels specifie 
par une fonction d'appartenance, eventuellement floue, a une classe de 
couleur de I'Espace de Couleurs (en abrege EdC). Ces methodes se 
d,fferencient principalement par la facon dont elles definissent les classes 
de couleurs et les fonctions d'appartenance a ces classes. La plus simple 
de ces methodes est une quantification rigide de I'EdC, comme decrit dans 
les articles de C. Carson, S. Belongie, et al. "Region Based Image 
Querying", Proc. CVPR'97, Workshop on Content-Based Access of Image 
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and Video Libraries, 1997, et de J.R. Smith and S,F. Chang. "Tools and 
Techniques for Color Image Retrieval.", Proc. SPIE'96, Storage & Retrieval 
for Image and Video Databases IV, Vol. 2670, 1996. Cependant certaines 
couleurs proches dans I'EdC peuvent se trouver dans des classes 

distinctes. 

Une autre methode de type pixel est une methode par seuillage 
d'histogrammes, dans laquelle les pics et les creux apparaissant dans un 
ou plusieurs histogrammes correspondent aux differentes dimensions de 
I'EdC sont recherches. Les creux detectes sont alors utilises comme limites 
entre les classes de couleurs (comme decr.it par exemple dans ('article de 
R. Hayasaka, J. Zhao and Y. Matsushita. -"Outstanding Object-Oriented 
Color Image Segmentation Using Fuzzy Logic". Proc SPIE'97 Multimedia 
Storage and Archiving Systems II, Vol. 3229, 303-314. 1997. 

Les methodes de groupement (clustering en terminologie anglaise) 
de I'EdC sont des extensions multidimensionnelles des techniques 
precedentes de seuillage et appliquent des algorithmes de classification 
tels que les algorithmes de recherche de plus proches voisins, (cf. .-article 
de R. Ferri and E. Vidal, "Color Image Segmentation and labeling through 
multiediting and condensing", Pattern Recognition Letters, vol 13 No 8 
PP. 561-568, 1992), I'algohthme de moyenne K (K-mean en terminologie 
angla,se) ou de moyenne floue C (Fuzzy c-mean en terminologie anglaise) 
(cf. .-article de Y.W. Lim, S.U. Lee, "On The Color Image Segmentation 
Algorithm Based on the Thresholding and the Fuzzy c-Means Techniques- 
Pattern Recognition, Volume 23, Number 9, pp. 935-952 1990) Ces 
algorithmes permettent de rechercher des clusters potentiels de couleurs 
dans les images. Enfin certaines methodes recherchent I'EdC permettant 
une representation optimale des images a raide de techniques telles que 
I'analyse en composantes principal ou la transformee de Karhunen- 
Loeve, telle que celle decrite dans .'article de S.E. Umbaugh et a. 
Automatic Color Segmentation Algorithm with Application to Skin Tumor 
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Feature Identification". IEEE Engineering in Medicine and Biology. Vol. 12, 
No. 3, pp. 75-82, 1993.). 

Le premier inconvenient de ces methodes est qu'une recherche 
robuste de pics dans les histogrammes ou de clusters dans PEdC n'est pas 
aisee, en particulier dans le cas d'images peu contrasts, et peut etre 
couteuse en temps de calculs. De plus, ces methodes considered 
-mphctement que si deux pixels, c'est-a-dire deux points d'image 
homogene, que le support soit une image video ou non, appartiennent a 
une meme region de I'image, leurs couleurs respectives appartiennent a la 
meme classe de couleurs ou sont proches dans I'EdC. Ceci ne s'applique 
correctement que dans des images de type "clip-arts" ou de dessins 
an,mes. mais generalement pas dans les images reelles complexes Au 
moment de ,'extraction des regions, ces methodes doivent done analyser le 
vo,sinage immediat des pixels pour determiner a quelle region chaque 
pixel doit etre attache. 

Par ailleurs, dans les methodes de type contours, les contours sont 
detectes et utilises pour determiner les Iimites des regions. Cependant les 
methodes d'extraction de contours ne sont pas des techniques de 
segmentation par elles-memes et doivent etre combinees avec au moins 
une des autres methodes. De plus les contours obtenus dans le cas 
d'images peu contrasts ou tres texturees sont difficilement utilisables car 
ils ne sont generalement pas fermes. 

Dans les algorithmes de -type regions, une region est definie 
comme une ensemble de pixels connectes satisfaisant un critere 
d'homogeneite donne, par exemple une zone qui ne contient qu'une 
couleur presente dans 95=/, des pixels de la region. Dans les techniques 
d,tes de decoupage et fusion (split-and-merge en terminologie ang.aise) 
les regions non homogenes sont decoupees en sous-regions puis 
analysees de maniere recursive jusqu'a ce que le critere d'homogeneite 
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soit satisfait pour chacune des regions obtenues. Les regions voisines 
ainsi obtenues sont regroupees. 

Les techniques dites de croissance de regions (region-growing, en 
terminologie anglaise) sont des methodes de type regions dans lesquelles 
un certain nombre de zones initiales, utilisees comme germes de 
croissance, sont d'abord recherchees. Les pixels et regions a V oisinant(es) 
sont iterativement englobes a ces zones initiales jusqu'a ce qu'un critere 
d'arret soit satisfait, par exemple lorsque le nombre de regions obtenues 
est inferieur a un seuil. 

Un exemple connu de cette categorie de methode est I'algorithme 
dit des "bassins topographiques" dans lequel une image est consideree 
comme un relief topographique, ou I'altitude de chaque point peut par 
exemple, etre proportionnelle a son intensite lumineuse. Le fond des 
bassins les plus importants est perce. et le relief est plonge dans I'eau Les 
bassms se remplissent progressivement, delimitant ainsi les principales 
reg.ons. Cette methode est tres sensible aux bruits et couteuse en temps 
de calcul. Une autre methode de cette categorie est la methode basee sur 
les arbres couvrants recursifs de poids minimum (Recursive Shortest 
Spannmg Trees, en anglais, RSST en abrege). RSST (voir ('article de 0 J 
Morns et al, in « graph theory for image analysis: an approach based on 
RSST». IEEE proceedings, vol. 1333, 146-152, 1986) considere chaque 
Pixel comme une region initiate. Les regions dont les couleurs moyennes 
sont les plus proches sont fusionnees de maniere recursive, en favorisant 
la fusion des regions de petites tallies. 

La plupart des methodes precederhment citees operent a Techelle 
du pixel. Ceci les rend particulierement sensibles aux variations locales 
d'mtensite et done aux textures. 

Cette sensibilite est necessaire pour les applications de vision 
artifcene ou de reconnaissance de formes pour lesquelles .'extraction des 
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contours exacts est primordiale, mais elle est penalisante dans le cas de 
recherche de larges regions semantiquement significatives. 

L'invention vise a pallier ces inconvenients en proposant une 
segmentation en regions de tallies telles que les regions ainsi segmentees 
aient encore une signification semantique dans le contexte de ("image. Par 
objet semantique ou semantiquement significatif, il est entendu un objet 
correspondant au monde reel, par exemple un visage, un ciel, etc 
Plusieurs objets semantiques peuvent composer un autre objet semantique 
(par exemple une chevelure, un visage et une veste constituent une 
personne) ci-apres appele objet semantique composite. Les objets 
semantiques composant un objet semantique composite peuvent aussi etre 
eux-memes des objets semantiques composites (par exemple le visage est 
compose, entre autres, d'un nez, d'une bouche et d'yeux). 

(-'utilisation d'une segmentation des images en objets ayant une 
valeur semantique significative est une etape cle du procede d'analyse et 
de comprehension du contenu des documents multimedias. en particulier 
des documents video. 

L'invention permet de segmenter les images en objets significatifs 
tout en negligeant les details. 

L'invention vise ainsi a obtenir une segmentation robuste 
presence d'images eventuel.ement tres texturees, et insensible aux detail 
non significatifs qui pourraient entralner une sur-segmentation inutile de 
larges regions homogenes, par exemple une corde noire sur un mur blanc. 

Pour ce faire. il est propose de qualifier de details a ecarter les 
regions "non signifiantes" ayant une surface inf6rieure a un certain 
pourcentage de la surface totale de r image (par exemple 1%, et de ne pas 
segmenter I'image en regions pouvant recouvrir plusieurs objets de facon a 
ev,ter sa sous-segmentation, pouvant conduire a des regions depourvues 
de signification semantique. 
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Le procede de segmentation selon I'invention qui s'apparente aux 
techniques de type region, opere dans un premier temps a I'echelle de la 
region, en partant de blocs initiaux de taille reduite tout en etant 
considers comme homogenes, de facon a permettre la segmentation de 
plus larges objets. 

L'invention porte done sur un procede de segmentation spatiale 
d'une image en objets visuels, caracterise en ce que, pour obtenir des 
objets ayant une signification semantique, il comporte les etapes 

suivantes : 

- dans une premiere phase, une partition de I'image en regions 
selon un pavage predetermine, une fusion de regions voisines dont la 
s.m.larite, selon une premiere fonction de similarite, est inferieure a un 
premier seuil, et I'obtention de regions elargies, 

- dans une deuxieme phase, une fusion d'une region elargie de 
taille .nferieure a un deuxieme seuil avec une region voisine qui lui est la 
plus similaire selon une deuxieme fonction de similarite. 

Avantageusement, le procede selon ('invention comporte 
egalement une troisieme phase de fusion des regions obtenues a Tissue 
de la deuxieme phase et qui sont similaires selon une troisieme fonction de 
similarite. 

Dans les differentes phases du procede de segmentation selon 
I'-nvent.on, les fonctions de similarite utilisees sont differentes dans au 

moins deux des phases. 

Pius precisement, I'invention a pour objet un procede de 
segmentation spatiale d'une image en objets visuels qui, pour obtenir des 
objets ayant une signification semantique, comporte les etapes suivantes 

- dans une premiere phase, une partition de I'image en regions 
.n.t,a.es selon un pavage predetermine, et une fusion des regions voisines 
dont la similarite est inferieure a un premier seuil, selon une fonction de 
similarite connue entre regions ; 
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- dans une deuxieme phase, une fusion des regions de taiile 
inferieure a un deuxieme seuil avec la region voisine la plus similaire ; et 

- dans une troisieme phase, une representation de chacune des 
regions obtenues par un nuage de points . dans un espace de 

5 representation forme d'au moins une dimension de base caracterisant un 
s.gnal electromagnetique provenant de cette region et d'une dimension 
caractensant les pixels correspondant aux valeurs considers dans les 
autres dimensions, avec 

- un ajustement polynomial d'une courbe avec les points 
10 representant chaque pixel de la region dans Tespace de representation du 

signal eleotromagnetique ; 

- une representation de chaque ajustement polynomial par une 

suite de valeurs ; 

- 1'application d'une fonction de similarity entre \es deux suites de 
15 valeurs ainsi definies, et 

- la fusion des regions voisines dont la proximite entre les 
ajustements polynomiaux est inferieure a un troisieme seuil. 

Dans le precede de Invention, les regions voisines fusionnables 
dans chacune des phases peuvent etre des regions initiales, des regions 
-ssues d'une fusion de regions initiales, ou des regions elargies issues de 
us,ons precedentes; les differents types de regions ainsi definies sent 
us.onnables entre elles a partir du moment ou on leur applique la meme 
fonct.cn de similarity et jusqu'a ce que toutes les similarity selon la 
fonction appliquee soient superieures au seuil choisi. 

Quand, dans la phase suivante, une nouvelle fonction de similarity 
est appliquee, la fusion des regions obtenues dans une phase precedente 
par application d'une fonction de similarity a seuil moins e.eve est alors 
pos Slb le jusqu'a ce qu'aucune fusion ne soil plus possible. 

Le processus peut etre ainsi reitere par application d'une nouve.le 
Action de similarity a seui. plus e.eve que la precedente. Les regions 
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fus.onnables restent toujours celles qui n'ont pas fusionne au seuil moins 
eleve de la fonction precedents et ce y compris des regions initiates. 

De plus, la fonction de similarite entre deux regions peut etre 
defm.e par la position des centre!** des deux regions et des extremites 
des deux segments de courbe representant ces deux regions. 

De la meme facon, le signal electromagnetique apparaissant dans 
au moms deux images peut etre transforms pour en extraire au moins deux 
composantes de mouvement entre .es deux images pour ,e presenter 
telles que valeur sca.aire et orientation, les autres etapes du precede 
s appliquant a cette representation. 

Dans le precede selon Invention, les points d'un nuage decrivant 
une region sont distribues dans un espaC e dont trois dimensions de base 
sent trois combinaisons lineaires eu non lineaires distinctes des trois 
couleurs primaires de la synthese additive, et une autre dimension dans 
cet espace etant I'effectif des pixels selon cette distribution 

Dans un autre mode de realisation, les points d'un nuage decrivant 
-e region sont distribues dans un espace dont trois dimensions de base 
sont ,a teinte. la saturation et Tintensite de ,a couleur et une autre 
dimension dans cet espace etant ,'effectif des pixels selon cette 
distribution. 

Dans ce cas. le calcul de similarite entre regions est realise ■ 

- en ut.l.sant I'espace teinte/saturation/intensite si une saturation 
moyenne est superieure a un quatrieme seuil predetermine • 

- dans I'espace des intensity, si la saturation est inferieure ou 
egale a ce quatrieme seuil. 

one echelle p,us fcne. qui p eul etre ^ du ost reaKsee de (acon a 
ob-en,, les c«„ s p^cis des liml , es des ajnsj - 
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interne, puis une fusion des deux segmentations est realisee afin d'obtenir 
a la fois des objets semantiquement significatifs et des contours precis 
pour ces objets. 

Par une mise en oeuvre du meme algorithme a deux echelles de 
resolution differentes, les resultats des deux segmentations des deux 
premieres etapes sont coherents et peuvent se combiner. 

Ainsi Invention concerne egalement un procede de segmentation 
f.ne damages en objets semantiquement significatifs, consistant : 

- dans un premier temps, a extraire de I'image les regions 
homogenes en couleur et en texture correspondant aux objets presents en 
neghgeant .es objets de petites tallies inferieures a un seui. defini' en 
pourcentage de la surface de ."image, et en utilisant une representation 
des reg,ons par ajustement polynomial de leur distribution de couleurs 
dans un espace des couleurs (EdC). a la fois lors de la segmentation et en 
representation finale des objets segmentes, 

- a reiterer I'extraction avec une resolution plus fine, afin de 
precser les contours, les regions obtenues correspondant alors a des 
parties d'objets, 

- dans une troisieme etape, une superposition des deux 
segmentations precedentes fournit des regions correspondant aux objets 
de I'image de la premiere etape avec les contours precis de la deuxieme 
etape, a.nsi qu'une structure interne representative de ces objets 

Par structure interne, on-entend que I'image est representee 
comme une arborescence d'objets, chaque objet de niveau superieur 
pouvant inclure un ou plusieurs objets de niveau inferieur. 

Les deux dernieres etapes peuvent naturellement etre realisees a 
P.us,eurs resolutions consecutives de facon a obtenir une description 
hierarchies de la structure des objets semantiques composites 

Preferentiellement, le calcul de simi.arite entre regions peut etre 

realise : 
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- selon le procede de invention si la saturation, consideree 
comme critere de superposition, est superieure a un quatrieme seuil 
predetermine ; 

- dans I'espace teinte-saturation-intensite, si la saturation est 
inferieure ou egale a ce seuil ; 

les seuils predetermines peuvent etre choisis pour maintenir le 
nombre de regions dans un interfile dans lequel la sur-segmentation et la 
sous-segmentation n'apparaissent pas et pour maintenir la distribution des 
tallies des regions dans un interfile defini pour eviter la sur et la sous- 
segmentation. 

Les parametres de seuil, de degre de polynome et de fonction de 
similarity peuvent etre choisis de facon adaptative par une methode 
d'apprentissage predetermine, en fonction de seuils de sur- et de sous- 
segmentation a eviter, et d'un calcul devaluation predetermine de celles- 

ci. 

De maniere generale. la fonction de similarity appliquee a Tissue 
quelconque des etapes du precede inclut le parametre de seuil au-dela 
duquel la fusion n'est pas realisee. 

Avantageusement. des utilisations composites du precede selon 
('invention sont mises en oeuvre : 

- avec la reconnaissance d'un locuteur, pour caracteriser le 
contenu des plans et des scenes d'une video ; 

- avec un alignement automatique entre le script et la video, pour 
caracteriser le contenu des plans et des scenes d'un document video ou 
pour apprendre de facon automatique les caracteristiques des objets 
presents dans la video et dans le script. 

D'autres caracteristiques et utilisations de I'invention ressortiront 
de la description qui suit de modes de realisation detailles, accompagnes 
des figures annexes qui represented respectivement : 
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- la figure 1 , un exemple d'image obtenue a I'issue de I'application 
des deux premieres phases de segmentation large du precede selon 

I'invention ; 

- les figures 2a et 2b, une representation des regions d'une image 
dans respace RVB (Rouge. Vert, Bleu) par des nuages de points et des 
courbes d'ajustement ; 

- la figure 3, les projections d'un nuage de points de I'espace RVB 
sur le plan (RB) et le plan (RV) pour determiner les extremes de 
I'intervalle d'ajustement ; 

- la figure 4, la distribution des distances euclidiennes des points a 
leurs droites respectives pour des keyframes (images caractSristiques) et 

des images fixes ; 

- les figures 5a et 5b. 6a et 6b, 7a et 7b, la segmentation en objets 
semant. q ues sur trois images (5), (6), (7), respectivement a la fin de la 
deux,eme phase du precede (figures 5a, 6a et 7a) et a la fin de la troisieme 
phase (respectivement figures 5b, 6b et 7b) ; 

- les figures 8a et 8b. respectivement une segmentation dite large 
obtenue avec une resolution de 16x16 pixels, et une resolution dite fine, de 
4x4 pixels, sur une meme image ; et 

- la figure 9, une superposition des segmentations large et fine 
precedemment obtenues. 

^invention est d'abord decrite comme un a.gorithme de la 
segmentation de larges regions. La segmentation fine est un mode plus 
particulier pouvant etre rea.ise par le meme algorithms Un a.gorithme 
uhhsant deux resolutions, et combinant les deux segmentations obtenues 

est decrit plus loin. 

Selon un premier exemple de realisation, ("image est d'abord 
decoupee en une grille de b,ocs dits initiaux. de faille adaptee, ega.e a 
0,25% de la surface de I'image courante, e'est-a-dire : 
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- suffisamment petits pour que les objets de taille superieure a un 
seuil (io/o dans rexemp|e de r(§a|jsatjon)i en dessous ^ ^ 

considers comme des details, soient segmentes, et 

- suffisamment larges pour limiter les temps de calcul qui 
augmentent de maniere « surlineaire » avec le nombre de blocs initiaux. 

A partir de ce decoupage, un histogramme des couleurs de chaque 
bloc initial est ca.cu.e dans Tespace RVB (Rouge Vert Bleu). Ce calcul 
cons,ste a comptabiliser le nombre de pixels ayant chacune des couleurs 
(des 256 couleurs dans I'exemple de realisation) apparaissant dans 
.mage, chaque couleur etant .a valeur prise part une des coordonnees de 
l espace RVB. 

Dans la premiere phase de fusion, chaque region est eva.uee par 
un calcul de distance entre son histogramme et ceux des regions 
adjacentes. Les ca.culs des distances sont realises selon .a norme d'ordre 
1 (LI), egale a la somme des valeurs absolues des differences au l er 
degre des val eurs des histogrammes prises deux par deux, les normes 
d ordre n, (Ln), etant celle. de Minkowski (egales a ,a puissance 1/n de la 
somme des valeurs absolues des memes differences a la puissance n) 

La reg,on courante est fusionnee avec celle dont Thistogramme est 
le plus prcche du sien, mais uniquement si la distance qui separe leurs 
histogrammes est inferieure a un seui, eleve qui, dans cet exemple de 
reaction, est fixe a SO'/o de la distance maximale possib.e de cet 
exemple de realisation. Plus le seui, est eleve, p.us le niveau de similarity 
des reg,ons fusionnees est e.eve. La fusion est reiteree jusqu'a ce que 
toutes les distances entre regions adjacentes soient superieures a ce seuil 
A la An de cette premiere phase, les regions restantes sont soit 
des petites regions, c'est-a-dire correspondant a des details (tai.le 
.nfeneure a 1 % dans rexemple de reaiisation), soit des regions plus larges 
et omogenes, du fait du seui, de fusion eleve (50% dans I'exemple de 
realisation). Ces larges regions peuvent eventue.lement etre tres 
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texturees, c'est-a-dire avec une granularite de texture de I'ordre de la taille 
des blocs initiaux.. 

La premiere phase est suivie d'une deuxieme phase de fusion des 
seules petites regions, de taille inferieure a 1% dans I'exemple de 
realisation. Ces "details" sent fusionnes automatiquement avec leur plus 
proche voisine par suppression du seuil de fusion de 50 % utilise lors de la 
premiere phase, de sorte que tous les details sont integres a leur region 
englobante ou a leur plus proche voisine. 

A ce point de I'algorithme, un graphe de regions larges et 
homogenes est obtenu, correspondant a de larges parties d'objets situes 
dans p,mage, et contenant eventuellement les details integres lors de la 
deuxieme phase. La figure 1 montre le resultat de la segmentation a la fin 
de la deuxieme phase. Le tumulus represents T a ete fusionne malgre la 
granularite important de la texture de cette region grace a ."utilisation 
d'une taille de blocs initiaux (1 %) de I'ordre de grandeur du grain de la 
texture. 

L'entree E du tumulus etant plus petite que le seuil de 1% dans 
I'exemple de realisation, elle a ete segmentee lors de la premiere phase 
pu.s a ete fusionnee lors de la deuxieme phase puisque, evaluee comme 
deta,l, elle ne pouvait pas etre consideree comme un objet semantique 
significatif par le present algorithme. 

Ainsi, en partant de blocs initiaux de taille suffisamment 
-mportante, des comparisons de distribution de couleurs et non des 
comparisons de couleurs sont realisees, ce qui rend I'a.gorithme 
-nsensible aux textures de granularite de I'ordre de cede des blocs initiaux 

En revanche, le ciel C qui est compose d'un degrade progressif de 
Plus de 50 variations de bleus est dit sur-segmente car, etant a priori un 
objet semantiquement unique, on devait s'attendre a une segmentation 
unique pour ne former qu'une seule region. 
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Des objets, comme le ciel de cette figure 1. peuvent etre sur- 
segmentes, les regions qui les composer* restart « perceptuellement » 
similaires. La troisieme phase permet de depasser ce stade. 

La sur-segmentation du ciel C illustre les limites de I'utilisation des 
histogrammes de couieurs : its sont sensibles aux effets optiques tels que 
Tillumination. les variations d'eclairage ou les degrades, comme decrit 
dans Particle de M. Strieker and M. Orengo, "Similarity of Color Images" 
Proc. SPIE'95, Storage & Retrieval for Image and Video Databases III' 
1995). De plus, comme les regions sont homogenes, leurs histogrammes 
correspondants sont "creux" (e'est-a-dire presentent une proportion 
importante de valeurs proches ou egales a 0) et ne peuvent done etre 
efficacement compares a I'aide des mesures de distances telles que L1 ou 
L2. 

Une autre representation des regions est done realisee dans une 
tro.s.eme phase, afin de permettre non seulement de comparer les 
distributions de couieurs, mais aussi les couieurs dans I'EdC (Espace des 
Couieurs). 

Une representation des regions d'une image dans I'espace RVB 
(Rouge, Vert, Bleu) est illustree aux figures 2a et 2b. 

Sur la figure 2a. chaque region est representee par la moyenne 
stat.st.que des valeurs de son histogramme formant sa couleur moyenne 
correspondant au cantrolde C de cheque nuage de points N1 a N6 ' 
correspondant aux distributions de couieurs des regions, et par un 
intervene polynomial, P, qui donne une estimation des variations de 
25 couieurs au sein de la region. 

Les distributions des couieurs qui presentent une forte correlation 
ont une forme curviligne, ce qui justifie ('estimation de ces region par un 
ajustement polynomial, avec un intervalle de domaine de definition du 
polynome. La figure 2b represente les nuages de points correspondents a 
30 la distribution des couieurs apparaissant dans I'image composee de 3 



20 



WO 99/40539 



15 



PCT/FR99/00176 



regions semantiques principal.es R1 a R3, ainsi qu'une courbe C1 (en 
pointings) correspondant a I'estimation polynomiale de la region R1. 

A la fin de la deuxieme phase, les nuages des regions obtenus 
sont des sous-ensembles, ou sous-regions, des regions finales R1 a R3. 
Dans le cas present, 6 sous-regions N1 a N6 ont ete extraites. Un 
ajustement polynomial est calcule pour les regions finales, ainsi qu'un 
intervalle sur leur domaine de definition. Dans le cas ideal, le polynome P 
d'une region finale et ceux Pi des sous-regions (obtenues en fin de 
deuxieme phase) qui la composent, sont les memes. Et I'intervalle de P est 
I'union des intervalles des Pi. 

La troisieme phase de I'algorithme fusionne les regions dont les 
ajustement polynomiaux sont similaires, et ayant des intervalles sur le 
domaine de definition similaires. consecutifs, ou se chevauchant. 

En pratique, pour limiter le nombre de calculs a realiser, une droite 
est approximee en utilisant la methode classique de regression lineaire. 
Dans le present exemple de realisation de I'algorithme, les nuages de 
points des regions obtenues (Figure 2b) a la fin de la deuxieme phase sont 
alors represent par un segment de droite obtenu par un ajustement 
lineaire et par le centroTde du nuage N1 a N6 correspondant, qui n'est pas 
necessairement le centre du segment. 

Chacune des regions est representee par sa couleur moyenne et 
par un segment S1 a S6 de droite porte par la droite de regression lineaire 
du nuage de points correspondant (figure 2b). 

Pour chaque region, tel qu'illustre sur la figure 3. le nuage de 
points de coordonnees (r.v.b) de I'espace RVB est projete en N(r.b) sur le 
Plan (RB) ainsi qu'en N(r,v) sur le plan (RV). Dans ces plans, nous 
calculons respectivement les droites de regression lineaire de b en r notee 
D1 sur la figure, et de v en r. notee D2. Les deux droites obtenues sont les 
projections sur les deux plans (RB) et (RV) de la droite cherchee notee 
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Les extremites E1 et E2 du segment de droite representatif S sont 
les projections sur la droite de regression D3 des points extremes du 
nuage de points N. Dans ces conditions, le segment ne va pas au-dela de 
la projection des points les plus extremes du nuage de points. 

Pour eviter que la longueur du segment ne soit influencee de facon 
importante par la presence de couleurs provenant par exemple de details, 
la distance euclidienne de ces extremites au centroTde du nuage est de 
preference limitee a un seuil dans I'espace RVB, seuil egal a 1.5 fois 
I'ecart type de la distribution des couleurs pour la region consideree dans 
I'exemple de realisation. 

Une telle estimation des distributions des couleurs des regions 
dans I'EdC par un ajustement lineaire a ete testee en mesurant les 
coefficients de regression lineaire obtenus lors des ajustements, ainsi que 
la longueur des segments obtenus et la distance euclidienne moyenne des 
points a leurs droites respectives. Ces mesures sont realisees sur une 
collection de 4000 images caracteristiques (keyframes en terminologie 
anglaise) extraites de 4 films, et une collection d'environ 1000 images fixes 
obtenues sur les sites du reseau internet. 

Les coefficients de regression moyens obtenus sont egaux a 0,87 
pour les keyframes et a 0,84 pour les images fixes. 

La distribution des distances euclidiennes des points a leurs 
droites respectives est representee sur la figure 4. Pour les keyframes K 
respectivement les images fixes F, la distance moyenne est de 3,17,' 
respectivement 4,88, pour une longueur moyenne de segment de 74,63^ 
respectivement 90,5. 

Ces resultats montrent une forte correlation lineaire entre les 
couleurs presentes dans les regions, qui justifie la representation par 
approximation polynomiale adoptee dans le present algorithme. 
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La fusion des regions lors de la troisieme phase de Palgprithme est 
realisee en comparant non plus les histogrammes de couleurs, mais les 
segments representees obtenus a la deuxieme etape. 

La comparaison des segments est realisee dans I'espace Teinte- 
5 Saturation-lntensite HSI (initial., de « Hue-Saturation-.ntensity » en 
termmologie anglaise). Get espace est perceptuellement uniforme car 
fourn.ssant une representation lineaire des variations de frequence 
spectrale tfune couleur, alors que I'espace RVB, ne fournissant pas une 
telle representation, n'est pas adapte a une telle comparaison. 

Cette comparaison exploite le fait que les variations de Teinte et 
de Saturation dans les regions sont faibles, alors que .es variations 
d'-ntensite sont importantes. Les variations moyennes observees sur toutes 
les reg,ons extraites de toutes les images des collections precedents sont 
Presentees dans le tab.eau 1. Les variations de teintes sont exprimees en 
degres, les autres parametres en distance euclidienne dans I'espace RVB 





Teinte 


Saturation 


Intensite 


Keyframes 


15.17 


9.56 


41.76 


Images 


20.97 


f 18.35 


\ 48.48 



- TABLEAU 1 - 
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Pour l.miter. lors de la troisieme etape, la fusion aux regions 
Perceptuellement simi.aires, et done appartenant potentieHement aux 
memes objets de la scene, seules les regions dont .es differences de 
Te,nte et de Saturation entre les centro.des sont inferieures a un seuil 
donne sont fusionnes. 

Dans I'exemple de realisation, la difference maximale de teinte est 
fxee a un seuil ega, a 7.5-, et la difference maxima.e de saturation a un 
-u.l de 15o/ 0 . Comme represent* sur I'exemp.e de la figure 3, .es regions 
-isines R1, R2 et R3, satisfaisant ces criteres sont fusionnees Ces 
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segments represents sont proches du meilleur ajustement polynomial, 
pouvant etre obtenu dans le cas d'un ajustement d'ordre superieur a un. 

Lorsque la saturation moyenne est faible, par exemple inferieure a 
environ 7% de la saturation maximale, la notion de teinte n'est plus 
representative et les segments sont alors uniquement compares sur la 
base de leur intensite moyenne et de leur variation en intensite. Ce cas 
correspond aux couleurs "proches" des gris. Ainsi. la methode de 
comparaison consiste principalement a comparer les niveaux de gris 
moyens (i.e. rintensite moyenne) et les variations en intensite (i.e. les 
textures). 

Cette methode de comparaison est une approximation d'une 
mesure de similarity entre ajustements polynomiaux, mais est neanmoins 
valide puisque le coefficient de correlation lineaire au sein des nuages de 
points correspondant aux regions est eleve. 

Les figures suivantes presentent la segmentation Z en objets 
semantiques sur trois images (5). (6), (7), respectivement a la fin de la 
deuxieme phase du procede (figures 5a, 6a et 7a) et a la fin de la troisieme 
phase (respectivement figures 5b, 6b et 7b). 

II apparait que la fusion des regions similaires, obtenue lors de la 
troisieme etape, fournit une segmentation realiste des images (5), (6), (7). 

Un autre mode de realisation concerne la segmentation fine 
d'objets obtenus a raide du procede de fusion precedent, visant a obtenir 
le contour fin de ces objets ainsr que leur structure interne. Le meme 
algorithme est utilise avec au moins deux resolutions differentes Tune dite 
fine et I'autre dite large. Cette resolution plus fine est obtenue uniquement 
en utilisant des blocs initiaux de taille plus petite, par exemple 4x4 pixels 
L'algorithme realise alors la segmentation en decoupant a I'echelle du 
Pixel, ce qui la rend plus sensible aux contours et aux textures. 

Contrairement aux methodes de I'etat de la technique evoquees 
Plus haut, meme lors de la segmentation fine, les zones dont la surface 
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represente moins d'une valeur seuil, fixee a 1% dans I'exemple de 
realisation dans l.'exemple de realisation, de la surface de I'image ne sont 
pas prises en compte. Cela permet en particulier d'extraire les petits objets 
qui n'auraient pas ete detectes par la premiere segmentation du fait de la 
resolution plus importante. Les figures 8a et 8b presentent respectivement 
une segmentation dite large 1, obtenue avec une resolution de 16x16 
pixels, et une resolution dite fine If de 4x4 pixels, sur une meme image. 

Puis une superposition permet d'obtenir une segmentation finale 
optimisee Zo, telle que representee en figure 9 ; les deux segmentations 
sont obtenues a I'aide du meme algorithme avec, comma parametre 
d'entree relatif a la resolution, 4X4 pixels et 16 X 16 pixels. 

La superposition conserve les contours 10 des regions fines 
incluses dans les regions ayant une signification semantique. Cependant 
les regions fines peuvent ne pas etre systematiquement incluses dans la 
region large correspondante, car pouvant resulter de details obtenus grace 
a la resolution plus fine, par exemple les barres 11 sur le mur a I'arriere du 
personnage de la figure 9. 

Pour plus de dart, nous utilisons le terme de region pour designer 
les larges regions semantiquement significatives obtenues par une 
segmentation avec de larges blocs initiaux, et le terme de zones pour 
designer les regions fines obtenues avec de petits blocs. Le resultat final 
(figure 9) est obtenu par la superposition des deux resultats intermedials 
Dans le cas ideal, chaque region serait composee exactement (au contour 
pres) de ('ensemble des zones qu'elle contient spatialement. 

Trois cas peuvent cependant se presenter : 

• Une zone est spatialement incluse dans une region et sa 
representation est proche (au sens de la mesure de similarity uti.isee lors 
de la trois.eme phase de ralgorithme de base) de celle de cette region 
Dans ce cas, on considere que la zone fait partie de la region. 
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• Du fait de la resolution plus precise de la segmentation fine 
une zone peut correspondre a un detail de .'image n'ayant pas ete extrait 
par la segmentation grossiere (ex : les barres 11 sur le mur a I'arriere du 
personnage de la figure 9). Dans ce cas la distance entre les 
representations de la zone et de la region est elevee, et on considere que 
la zone ne fait pas partie de la region, mais forme une region par elle- 
meme. Ces zones peuvent eventuellement etre utilisees pour I'etude de la 
structure spatiale des regions. 

• Une zone n'est pas majoritairement incluse dans une region (en 
Prat,que, un seui. dependant de la tai.le de la zone est fixe) mais s'etend 
sur p,usieurs regions (ex : le col 12 de .a chemise du personnage de ,a 
figure 9). Dans ce cas, la zone fait partie de la region .a plus similaire ou 
est consideree comme region a part entiere si aucune des regions 
avoisinantes n'est assez similaire. 

Des exemples duplication du precede selon .'invention sont 
decrits ci-apres. 

Exemple 1 : Oararterisation des nhj»t«- H a »^ hn 
L'ensemble des caracteristiques des objets segmentes est 
conserve en vue d'une analyse du document et/ou d'une indexation des 
-ages pour permettre la recherche de plans sur leur contenu en terme 
d objets semantics et d'actions de ces objets. L'ensemble des 
caracteristiques de cheque region (cou.eur, texture, tai.le, position, indice 
e forme, mouvement. . . . ) est tres compact. Dans ,e cas d'un ajustement 
1-nea.re, un resume des caracteristiques precedentes peut etre stockes 
dans moins de 20 octets (La position de la couleur moyenne et du segment 
represents en necessitant 9). Des representations plus completes 
peuvent necessiter quelques dizaines d'octets par objet. 

Une image peut etre representee sous une forme resumee par une 
ste de descriptors des principaux objets qu'eNe contient, cheque 
descriptor inc.uant notamment ,a position et le mouvement de .'objet Les 
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criteres de choix des principal* objets peuvent etre par exemple la taille, 
la difference de couleur avec les objets voisins, le mouvement, ou des 
connaissances semantiques du type 'Tobjet X est important". Sur la base 
d'une representation de 4 objets dans une image, par exemple, la 
representation de I'image peut etre aussi compacte que 80 octets. Pour 
caracteriser un objet, il est utile de connaitre non seulement le descriptor 
de cet objet, mais egalement les descripteurs des objets voisins, puisqu'un 
objets peut aussi etre caracterise par son contexte (ex : un avion dans le 
ciel.). 

La semantique de certains des objets segmentes par la methode 
proposee peut etre aisement extraite a Faide de leurs caracteristiques 
visuelles dans un certain nombre de cas simples (ex : detection de dels de 
jours, d'eclairages, de peau, ...). Cependant, I'association d'une 
semantique aux objets peut egalement s'appuyer sur I'apport de 
connaissances externes. Par exemple : "un ciel est un objet bleu ou gris 
peu texture, en general en haut d'une image". 

Le probleme de la caracterisation d'un objet semantique est un 
probleme connu de classification ou de groupement (clustering) de points 
dans un espace multi-dimensionnel. Cette classification peut s'effectuer 
avec ou sans apprentissage, en mode supervise ou non. Dans le procede 
du present brevet, cette classification s'appuie sur une representation 

compacte de I'objet et le cas echeant des objets environnants, dans un 

espace multi-dimensionnel. 

Les methodes connues de classification qui peuvent etre utilisees 

sont les methodes classiques d'analyse des donnees, les methodes 

neuronales et les methodes par algorithmes genetiques. 

Dans certaines methodes d'analyse des donnees, les nuages de 

po,nts voisins sont caracterises comme des clusters et projetes dans un 

espace de representation plus petit adequat. La caracterisation des objets 

du duster peut alors se faire a partir de la description par I'utilisateur d'un 
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ou plusieurs objets du cluster. Le systeme d'indexation generalise la 
caracterisation d'un ou plusieurs objets decrits par des points du cluster, a 
des objets decrits par d'autres points de ce cluster. 

Dans I'approche neuronale, le systeme apprend un « classifies », 
qui permet de diviser I'espace de representation en clusters, a partir d'un 
ensemble d'exemples. Les exemples peuvent etre fournis par un des 
utiiisateurs du systeme pendant I'apprentissage ou en cours d'utilisation. 

Dans I'approche genetique, il existe un ensemble de classifieurs 
initiaux, caracterises chacun par une fonction de similarity prise dans un 
ensemble de fonctions possibles, et par des seuils. Ces classifieurs sont 
represents par une signature qui est une chaine de bits. Les classifieurs 
initiaux peuvent etre tires au hasard ou fournis par des utiiisateurs 
L'utilisateur ou le systeme determine quels classifieurs ont donne une 
reponse appropriee. Les classifieurs qui ont participe aux bonnes 
reponses sont hybrides par recombinaison de la signature de deux de ces 
classifieurs. Des modifications aleatoires des signatures ou "mutations" 
peuvent egalement etre appliquees lors de la creation de nouveaux 
classifieurs. Pour certaines classes duplications, ce processus converge 
vers une population de classifieurs proche de I'optimum. 

La quatrieme methode de classification envisageable a partir de la 
segmentation de I'image en objets semantiques, est la recherche d'objets 
v.suels similaires a un ensemble d'exemples donnes, a partir d'une 
similarity des caracteristiques de "couleurs. de formes, etc. La requete 
initiale obtient une fonction globale de similarity, en calculant une somme 
de fonctions de similarity appliquees independamment a different* criteres 
chacune etant ponderee par une valeur appeiye poids. Cette requete 
m.t.ale peut etre enrichie de facon connue en permettant a l'utilisateur de 
specifier quels sont les reponses satisfaisantes ou non. Une technique 
genenque d'enrichissement d'une requete vectorielle a partir de ces 
reponses est connue. Dans certaines variantes de cette technique el.e 
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peut s'appuyer sur I'estimation des modifications souhaitables des poids 
des differentes fonctions de similarity par des methodes derivees des 
probability bayesiennes. La recherche vectorielle par similarite est 
proposee par plusieurs projet d'indexation de la video, mais ces projets ne 
s'appuient pas sur une segmentation spatiale des objet semantiques et 
une mesure de similarite selon notre procede. 

Selon la presente approche, ('application de ces methodes est 
facilitee par la taille reduite du descripteur, et par la possibility pour 
I'ut.hsateur d'indiquer des exemples et des contre-exemples, et le cas 
echeant d'indiquer si la reponse est satisfaisante ou non. 

Un script decrivant le contenu de chaque plan d'une video est 
al.gr* sur les limites de plans de la video par des methodes connues Ce 
sa.pt decrit chaque objet d'un plan et ses actions. En correlant la presence 
d'un objet dans le script et dans la video, il est possible de determiner avec 
une certaine probability quel objet de la video correspond a un objet du 
scnpt et quelles sont ses actions. A partir de cette information, on dispose 
d'exemples de ce type d'objet, qui permettent de constmire 
automatiquement un classifieur pour cet objet. 

Une autre utilisation de ces methodes dans notre procede est 
d'utiliser la segmentation pour annoter les objets par des caracteristiques 
objectives ou subjectives. Pour reconnaitre la presence d'une de ces 
caracteristiques dans un objet ou une partie d'une video, il est possible de 
cho,s,r de facon automatique comme exemples les objets visuels qui sont 
annotes par cette caracteristique. et de proceder ensuite a I'apprentissage 
d'un des classifieurs precedents. 

Dans le cas particulier ou I'objet correspond a un personnage la 
reconnaissance du locuteur par des methodes connues d'ana.yse audio 
permet de choisir comme exemple plusieurs instances d'un meme objet et 
de proceder ensuite a I'apprentissage des caracteristiques de cet objets 
selon I'une des methodes mentionnees precedemment 
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Dans tous les cas, la segmentation et la classification des objets 
d'une scene et de leur mouvement permet de generer un script de la scene 
qui decrit les objets, les actions, et I'ambiance de la scene. 

Exemple 2 • Segmentation temnnr» || e de virion on .^ . Mn , p . 
5 De facon connue, une video est le plus souvent structure en 

Plans, separes par des coupures (cuts en anglais) ou par des effets 
speciaux (fondus, volets). Un pian est une suite continue d'images effectue 
en une seule prise par une seuie camera. La segmentation d'une video en 
Plans est utile nbtamment pour naviguer dans ia video a partir d'un 
10 -nterface appele "story-board", qui represente chaque plan par une image 
caracteristique. 

Cependant, plusieurs plans peuvent avoir un contenu semantique 
vo.sin, et d-autre part le nombre de plans dans une video est souvent tres 
eleve, ce qui est defavorable a une navigation efficace dans la video a 

1 5 partir du story board. 

Plusieurs auteurs ont propose de represents la video en vue 
d'une description de son contenu et de la navigation dans ce contenu 
comme une suite de sequences. Selon cette approche, une sequence esi 
une su.te de plans decrivant un meme environnement et les memes 

20 personnages. La sequence est une unite semantique appropriee pour ,a 
description de contenu et la navigation dans la video. 

Des methodes pour la segmentation automatique d'une video en 
sequences ont deja ete proposees. Par exemple, un changement dans 
.'evolution de la duree des plans peut caracteriser un changement de 

25 sequences. 

Une autre methode de segmentation en sequences est basee sur 
la detection d'objets caracteristique, Par exemple, un changement de 
sequence est souven, lie a un changement d'environnement, par exemple 



WO 99/40539 



25 



PCT/FR99/00176 



entre interieur / exterieur / jour / nuit. La detection d'un objet de type ciel de 
jour ou ciel de nuit ou eclairage permet eventuellement de caracteriser un 
plan comme tourne en exterieur jour ou exterieur nuit. 

Dans le precede selon ia presente invention, la segmentation en 
objets semantiques puis la caracterisation d'un certain nombre d'objets par 
les methodes du paragraphe precedent permet de detecter des limites de 
sequences. 

Deux autres types d'intervalles temporels sont les groupes de 
Plans (prises de vue. groupements) et les sujets. Les groupes de plans ont 
les memes proprietes que les sequences, mais ne sont pas formes 
necessairement de plans contigus. Les sujets sont une suite de sequences 
portant sur un meme theme. La detection de sujets est particulierement 
-nteressante pour caracteriser des intervals temporels dans des videos 
documentaires ou d'actualites. 

La segmentation en sujets selon la presente application s'appuie 
sur la segmentation en sequences selon I'approche decrite precedemment 
La detection d'une limite de sujet se fait a partir d'une ou plusieurs des 
methodes suivantes : 

• Une methode syntaxique connue 

• La presence d'un objet semantique appartenant a une classe 
d'objets caracterisant un certain sujet 

• L'extraction du texte des dialogues et des commentaires par 
des methodes connues de dictee vocale, les mots de ces textes etant 
ensuite classes par concepts a I'aide d'une methode telle que celle publiee 
auparavant par Dumais et Foltz (Comm. ACM ). 

Une fois la video segmentee en sujets, la caracterisation du sujet 
par un ou plusieurs descripteurs s'appuie sur les memes methodes. 
Exemple 3 • SegmPntation rfobiets spm^..^ ~ mr . n - itr - 
Les objets semantiques composites sont composes d'une ou 
Plusieurs regions semantiques segmentees par la methode decrite ci- 
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dessus. Dans la figure 8, le personnage est un objet semantique composite 
compose du casque, du visage, de la veste, du col de chemise, ... || est 
interessant de pouvoir le retrouver par une region quelconque, par 
exemple par le casque, ou de visualiser et d'annoter le personnage 
complet et pas seulement le visage. 

La segmentation de tels objets ne peut en general etre realisee 
uniquement a partir d'une image fixe. 

II est dans certain cas possible, par exemple lorsqu'une focale 
longue a ete utilisee pour la prise de vue, de separer les objets de I'avant 
Plan qui sont nets, des objets de I'arriere plan qui sont susceptible d'etre 
flous. Ce type de segmentation n'est cependant pas utilisable 
systematiquement. et est susceptible de conduire a des sous- 
segmentations importantes (exemple : I'arriere plan segmente comme un 
seul objet). 

La segmentation des objets en mouvements peut aussi etre utilisee 
pour la segmentation des objets composites dans les videos Les 
methodes de segmentation basees sur le mouvement et de suivi d'objets 
ont recemment fait I'objet de nombreuses publications ( voir Proceedings of 
the Workshop on Image Analysis for multimedia Interactiv Services - 
WIAM.S'97. Louvain-.a-Neuv e , Belgique, juin 1997). Une limitation des 
methodes basees principalement sur le mouvement, par rapport a notre 
approche basee sur les objets semantiques, est que la methode basee sur 
le mouvement n'est pas toujours applicable (objets statiques) et qu'elle ne 
fournit pas d'informations de structure. 

Selon la presente approche, il est possible d'utiliser une 
representation sur plusieurs dimensions du mouvement et de la couleur 
(par exemple : deux dimensions pour le mouvement, une pour le nombre 
de blocs pour cheque valeur des deux dimensions precedentes) 
Cependant dans une autre mise en ceuvre utile de notre precede la 
segmentation est faite uniquement sur la couleur, la distribution ' du 
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mouvement est calculee sur chaque objet ou partie d'objet. Cette 
distribution (par example la moyenne et I'ecart type des vecteurs de 
mouvement) est utilisee pour definir des objets composites a partir d'un 
meme mouvement des differentes parties. 

Les differences entre les caracteristiques de mouvement dans 
differentes parties d'un objet semantique peuvent aussi etre utilisees pour 
decrire un mouvement complexe ou une action de cet objet. Par exemple 
le mouvement d'un bras dans un personnage n'est pas forcement .e 
mouvement moyen de I'objet. 

Apres compensation des mouvements de camera (travellings 
zooms, ...) les informations de mouvements peuvent etre utilisees de 2 
facons : 

• la segmentation des objets en mouvement retourne une 
segmentation en region qui est necessairement un sur-ensemble de la 
segmentation obtenue sur les images fixes par notre a.gorithme Les 
reg,ons appartenant a un meme objet en mouvement sont regroupees pour 
former un objet composite ; 

• les regions obtenues par la methode de segmentation 
presentee ci-dessus et presentant les memes caracteristiques de 
mouvement (vitesse, trajectoire) sur des images conserves sont 
regroupees pour former un objet composite. 

Si ('analyse du mouvement est importante pour ('amelioration de la 
segmentation en objets composites, el.e n'est pas suffisante dans certains 
cas. notamment dans la cas de plans ou scenes relativement statiques 

Une troisieme methode basee sur la cooccurrence des regions 
dans les .mages est proposes : si la combinaison de regions, par exemple 
casque-v.sage-veste, apparait regulierement dans des suites de plans 
alors ces regions peuvent etre associees avec une probabi.ite importante 
de cooccurrence. Les objets etant represents dans un espace des 
caracteristiques citees precedemment, la probabi.ite de cooccurrence des 
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objets semantiques segmentes peut etre calculee, par exemple par les 
methodes statistiques connues utilisees pour ('indexation de documents 
textuels. 

Enfin, les objets voisins peuvent etre regroupes en objets 
composites a I'aide de leur valeur semantique. 

Exemple 4 : Suivi rl'un obiet a tr^r, , me Qu nll)sia „ rQ 
Les methodes precedentes permettent de retrouver un meme objet 
semantique a travers plusieurs images successes d'une scene d'une 
vdeo. ou meme a travers plusieurs scenes situees dans differents 
passages de cette video. Cette caracterisation se fait a partir des 
methodes de similarity entre objets ou regions visuel.es decrites 
precedemment, et compte tenu des deplacements de I'objet ■ un objet 
semblable situe a la meme place dans I'image suivante a plus de chance 
d'etre le meme objet que s'il est dans une partie opposee de I'image 

Le suivi d'objet (ou tracage d'objets) dans une video est un 
probleme connu, qui fait I'objet de plusieurs travaux d'autres auteurs Dans 
notre approche, le fait de disposer d'objets semantiques simples ou 
composites .imite le nombre d'objets a suivre, d'autre part nous uti.isons 
une methode specifique de recherche de similarity entre plusieurs 
occurrences d'un objet, comme nous I'avons decrit precedemment. 

Dans certains cas. le suivi d'objets permet de detecter des actions 
Par exemp,e le fait que deux objets se deplacent ensemble puis sont 
separes, traduit frequemment le fait qu'un des objets a depose I'autre au 
cours de I'intervalle. Le fait qu'il s'agi, d'objets semantiques accrolt la 
25 qualite de cette detection d'actions. 

Exemple 5 • Section d'nhiots en v„p h„ .., r , n . 

d'un utilisatfiur 

Lors de I'acces intelligent a une base d'images. ou une grande 
base de v.deos, ou un ensemble de programmes audiovisuels diffuses il 
est utrie de pouvoir stocker une partie de cette base ou de ces 
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programmes interessante pour un utilisateur, sur un systeme de stockage 
par exemple au site de production du programme ou chez I'utilisateur. 

Dans le present procede, les parties de la video stockees sur ce 
systeme de stockage sent des intervals temporels ou des ensembles 
damages caracterises par la presence de descripteurs de sequences ou de 
sujets verifiant une requete de I'utilisateur ou du systeme, ou par .a 
presence d'objets visuels ou sonores verifiant une telle requete 

Ces parties sont stockees dans un certain ordre, qui depend soit 
de la pertinence des objets trouves, soit de regies de transition entre objets 
def.n.es par .e systeme ou par I'utilisateur, soit un ordre a.eatoire Les 
regies de transition peuvent etre extraites a partir des associations 
usuelles faites par un utilisateur, ou des transitions faites usuellement par 
celui-ci. H 

La requete utilis«a a pour but de retrouver un objet (ou une 
sequence ou un sujet) dans laquelle on retrouve avec un degre de 
pertinence e, de realisation plus ou moins e,eve un ensemble de 
caracteristiques de contenu presents dans ,a requete ou dans un jeu 
dexemples associe a ,a requete. Les objets ou les segments ,em P ore,s 
recherches peuvent e.re ceux pour lesquels soi. I'utitisateur a maniteste un 
'nteret. par exemple par ta consultation d'objets sembtabtes tors de 
sess.ons anterieures, soi, un utilisateur semblable a manifesto un intere, 
°n U ' 8UrS S " P- -PP=r. a cette action, ,i,s 

manrfesten, un intere, pour un meme ensemble de documents ou d'objets 
aud.ovisuels. Dans ces deux cas. les requetes qui se„iron, a seleotionner 
'« °»,ets ou les segments temporals peuvent etre produites 
automatiquement par le systeme. 

Exemple R ■ i Jtilisatinn pn,,r ,. n svst A me rnmn 
. . a svsieme tip compressmn ^ w e 

compositio n d'ob jats virtan 

Dans un systeme de compression de videos base sur une 
representation par objets, i(e d e pouvoir decrire une image comme 
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un ensemble d'objets. Un objet qui interesse davantage un utilisateur peut 
etre transmis avec un taux de compression plus faible qu'un autre objet (tel 
que I'arriere plan). D'autre part, une scene video peut etre editee de facon 
a juxtaposer plusieurs objets provenant de scenes differentes, ou a 
supprimer certains objets. 

Pour realiser ces objectifs, la disposition d'une segmentation en 
objets semantiques est utile. Dans notre approche, les methodes de 
segmentation utilisees permettent d'acc6der a une structure arborescente 
des objets, depuis I'intervalle temporel ou I'image, puis des objets 
composites, jusqu'a la structure interne de ces objets, comme nous i'avons 
decrit precedemment. 

Cette approche permet d'appliquer les methodes d'un systeme de 
representation de video par objets, d'une facon efficace. et avec une 
granularite qui varie de I'objet composite a la structure fine. 

invention n'est pas limitee aux exemples decrits et representes 
D'autres utilisations et applications sont ci-apres definies : 

- utilisation selon laquelle une region a signification semantique est 
egatement caracterisee par des regions plus petites contenues dans la 



premiere 



- pour etiqueter les objets dans une image par une description du 
type et du contenu de ces objets ; 

- pour detecter les objets communs dans plusieurs plans d'une 
video, en vue de grouper ces p.ans en groupes de plans a signification 

semantique ; 

- pour detecter les suites de plans realises dans un meme 
contexte, appeles scenes ou sequences, et .es groupes de P ,ans realises 
dans un meme contexte, appeles groupes de plans ou clusters ; 

- ''utilisation conjoints avec .a dictee vocale pour caracteriser le 
contenu des plans et des scenes d'une video ; 
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- application a des images fixes et animees, conjointement avec 
des annotations effectuees par I'utilisateur, pour caracteriser les objets de 
la video par des caracteristiques objectives et subjectives ; 

- application a une base d'images, pour caracteriser un objet 
composite pour I'association frequente de plusieurs composantes de I'objet 
dans la meme image ; 

- I'utilisation pour decrire un objet audiovisual comportant des 
•mages dans un format de representation decrivant notamment .a position 
des objets semantiques contenus dans .'objet audiovisue., ces objets 
semantics, etant caracterise, par un ensemble de caracteristiques 
semantiques ; 

- "'utilisation pour decrire un objet audiovisuel comportant des 
-mages, dans un format de representation decrivant notamment ,es actions 
des objets semantiques contenus dans I'objet audiovisuel ; 

- I'utilisation pour selectionner les objets d'un flot d'objets 
au ,v,sue,s. devant etre stocKes dans ,e systeme de stoc kage , n 
ut lllS ateur de ce f,ot audiovisue, en vue de ,'acces u.terieur a ces objets ■ 

- I'utihsation des precedes selon .'invention, dans lesquels le degre 

de vraisemblance ou de realisation h q . 

ae realisation de la caracteristique est 
respect.vement caracterisee ou representee par un nombre 

- 1'uti.isation pour la compression et la transmission d'images fixes 
e animees avec un degre de compression variable se.on .'interaction 
actuene ou anterieure de I'uti.isateur avec un objet semantique donne • 

- I'utHisation pour ,a representation d'images fixes et animees 
comme un ensemble d'objets semantiques dans une scene do* 
composition peut etre modifiee par I'utilisateur. 
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REVINDICATIONS 



1. Precede de segmentation spatiale d'une image en objets visuels 
caracterise en ce que, pour obtenir des objets ayant une signification 
5 semantique, il comporte les etapes suivantes : 

- dans une premiere phase, une partition de ('image en regions 
selon un pavage predetermine, une fusion de regions voisines dont la 
s-mrtante. selon une premiere fonction de similarity est inferieure a un 
premier seuil, et I'obtention de regions elargies, 
> 0 - dans une deuxieme phase, une fusion d'une region e.argie de tail.e 

-nfeneure a un deuxieme seuil avec une region voisine qui ,ui est la p,us 
simHaire selon une deuxieme fonction de similarity 

2. Precede selon la revendication 1, caracterise en ce qu'i. comporte 
une troisieme phase, de fusion des regions obtenues a ,'issue de «a 
deux.eme phase et qui sont simiiaires selon une troisieme fonction de 
similarity 

3. Precede selon la revendication 1 ou 2, caracterise en ce que les 
fonctions de similarity dans au moins deux des phases sont different^ 

4. Precede selon I'une des revendications 1 a 3 dans lequel les 
regions voisines fusionnab.es dans Tune queicenque des phases peuvent 
etre des regions initiales ou des regions issues d'une fusion selon une 
fonction de similarity differente. 

5. Precede selon I'une des revendications 1 a 4, caracterise en ce 
que pour une fonction de similarity on retient une methode comportant ■ 

- une distribution des pixels d'une region dans un espace de 
representation de maniere a former un nuage de points dans cet espace 
chaque pent de cet espace y representant un pixel, 

de ba S I Ce ! T aCe ^ r6Pr§Sentati0n COm P° rtant ^ moins une dimension 
de base relat.ves a des caracteristiques physiques des pixe.s 

- une extraction d'un ensemble de grandeurs statistics relatives a 
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ce nuage, et 

- la definition d'un critere de ressemblance entre ces grandeurs 
statistiques. 

6. Procede selon la revendication 4, caracterise en ce que si 
I'espace comporte au moins deux dimensions, 

- I'extraction des grandeurs statistiques comporte un ajustement 
polynomial d'une courbe avec les points du nuage d'une region, et la 
representation de cet ajustement polynomial par une suite de valeurs 
ajustees, et 

- la definition du critere de ressemblance comporte une 
determination d'un troisieme seuil de comparaison pour comparer de telles 
suites de valeurs ajustees. 

7. Procede selon la revendication 6, dans lequel la fonction de 
similarite entre deux regions depend de positions de centrofdes de nuages 
de deux regions, et d'extremites de deux segments de courbe representant 
ces deux regions. 

8. Procede selon la revendication 7, dans lequel la fonction de 
similarite est la distance entre les centroides des nuages de points. 

9. Procede selon I'une des revendications 6 a 8, dans lequel 
I'ajustement polynomial est une regression lineaire. 

10. Procede selon I'une des revendications 6 a 9, dans lequel les 
nuages de points decrivant une region sort distribues dans un espace dont 
tro.8 dimensions de base sort troiscombinaisons lineaires ou non lineaires 
d.st,nctes des trois couleurs primaires de la synthese additive et une autre 
d.mens.on dans cet espace etant I'effectif des pixels selon cette 
distribution. 

11. Procede selon I'une des revendications 5 a 9, dans lequel les 
po-nts d'un nuage decrivant une region sont distribues dans un espace 
dont trois dimensions de base sont la teinte, .a saturation et I'intensite de 
la couleur, et une autre dimension dans cet espace etant I'effectif des 
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pixels selon cette distribution. 

12. Precede de segmentation selon la revindication 11 dans lequel 
le calcul de similarite entre regions est realise : 

- en utilisant I'espace teinte/saturation/intensite si une saturation 
moyenne est superieure a une quatrieme seuil predetermine ; 

- dans I'espace des intensites. si la saturation est inferieure ou 
egale a ce quatrieme seuil. 

13. Procede selon Tune quelconque des revendications 1 a 9 dans 
lequel le signa. electromagnetique apparaissant dans au moins' deux 
-mages est transform* pour en extraire pour chaque region au moins deux 
composantes de mouvement entre les deux images pour le represents 
telles que valeur scalaire et orientation, et ou les autres etapes du procede 
s'appliquent a cette representation. 

14. Procede de segmentation spatiale d'une image en objets 
visuels, caracterise en ce que : 

a) au moins deux segmentations sont realisees selon rune des 
revendications 1 a 12 avec au moins deux tail.es de regions initiales 
correspondant a des resolutions differentes ; 

b) on superpose les objets obtenus, 

c) on remplace le contour de I'objet obtenu par la resolution la moins 
fine par le contour obtenu par la resolution la plus fine, et/ou 

d) rimage est representee comme une arborescence d'objets 
chaque objet de niveau superieur pouvant inclure un ou plusieurs objets de 

niveau inferieur. 

15. Procede de segmentation selon Tune quelconque des 
revendications precedentes dans le que, les seuils predetermines sont 
c o,s, S pour maintenir ,a distribution des taiHes des regions dans un 
intervene defini pour eviter une sur et une sous-segmentation 

16. Procede selon Tune des revendications 1 a 15, dans lequel des 
parametres de seuil, de degre de polynome et de fonction de similarite 
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sont choisis de facon adaptative par une methode d'apprentissage 
predetermine, en fonction de seuils de sur-segmentation et de sous- 
segmentation a eviter, et d'un calcul devaluation predetermine de celles- 
ci. 

17. Utilisation du procede selon I'une des revendications 1 a 16, 
pour caracteriser I'image par un ensemble d'objets decrits par plusieurs 
caracteristiques, I'une au moins de ces caracteristiques etant representees 
par un nombre ou par une valeur dans un ensemble enumere. 

18. Utilisation du procede selon I'une des revendications 1 a 17, 
pour classer les objets visuels de plusieurs images segmentees a I'aide de 
partition de I'espace de representation des objets par une methode de 
classification avec apprentissage choisie parmi une methode de type 
neuronale ; une methode de type genetique et une methode d'analyse des 
donnees. 

19. Utilisation conjointe du procede selon I'une des revendications 1 
a 17 et d'une mesure de distance entre les courbes d'ajustement dans un 
espace de representation de ces courbes, pour detecter la presence d'un 
meme objet dans plusieurs images, consecutives ou non. 

20. Utilisation conjointe du procede selon I'une des revendications- 1 
a 17 avec des methodes statistiques de caracterisation des concepts 
contenus dans un texte, pour caracteriser le contenu d'une suite de scenes 
portant sur un meme sujet. 

21. Utilisation conjointe du procede selon I'une des revendications 1 
a 17 avec la reconnaissance d'un locuteur, pour caracteriser le contenu de 
plans et de scenes d'une video. 

22. Utilisation conjointe du procede selon I'une des revendications 1 
a 17 avec un alignement automatique entre un script et une video, pour 
caracteriser le contenu des plans et des scenes d'un document video.' 

23. Utilisation conjointe du procede selon I'une des revendications 1 
a 17 avec un alignement automatique entre un script et une video, pour 
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apprenclre de fa?on automatique les caracteristiques des objets presents 
dans la video et dans le script. 

24, Utilisation conjointe du procede selon Tune des revendications 1 
a 17 avec la transcription de la parole de la video sous forme de texte par 
5 une methode de dictee vocale, pour caracteriser le contenu de plans et de 
scenes d'une video. 
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